课程实录 | 数据科学与业务融合:解锁企业增长的新密码
6月12日,数字寰宇数据资产公开课第一期上线!!
谢尔曼博士以《从“数商”谈起——数据科学和数据价值的创造逻辑》为主题带来了直播讲解,想要观看“回放”的小伙伴,点击“阅读原文”观看完整回放。
以下是直播的完整课程实录:
各位同学,今天探讨数据资产化和数据要素的价值以及价值是如何产生?应该如何管理这些能够产生价值的数据?同时,国家如何认识数据要素的价值?
作为企业,需要了解如何利用企业内部的要素、如何引入外部要素、如何科学归类、管理、估值等工作。接下来,通过三个课时的分享,初探数据要素的价值和产生机理;我国在数据要素管理的重要举措--如何进行数据入表;以及在这样的大背景下,如何做好数据资产管理。
今天要探讨数据要素产生价值的背后机理是什么?哪些场景能够产生价值?为了产生价值,我们需要完成哪些工作?
01
数据科学与数字智能
首先通过几个场景来探讨数据的价值。这也是为什么要将数据作为继土地、劳动力、资产、科学技术之后的第五大要素。
我们可以举例说明,上面这张图是抖音的产品图。大家用过的目前流量价值最高的几个APP,除了微信之外,抖音是极其大的一个流量主,包括今日头条,抖音,西瓜视频等等,头条叫文字化的新闻,就网页版的新闻。抖音是短视频,西瓜视频是长视频。
请大家思考这样的公司,整个生产是怎么围绕数据展开的。每个用户在平台上的所有浏览记录,包括观看了哪些视频、暂停了哪些以及在哪些地方会多看重复播放、哪些地方会快进、哪些视频会用倍速播放等都会记录下来。
记录下来的数据被分析、建模,并为每位客户打上标签。标签是比较形象的比喻,后面通过复杂的算法,进而在浏览过程中植入相应的广告。
目前广告包括硬广告和软广告,像很多up主本身就在内容上投入广告。这形成了一个庞大的生态,大家可以想象这些生态都是数据。除了数据之外,即使是平台上的视频,例如抖音上的视频也并非由抖音生产,而是由每个用户自己产生。这样就形成了一个完美的数据闭环。
在这个过程中,用户观看视频和内容享受到内容服务的同时,又贡献了自己的时间和注意力,进而吸引广告主投放广告、购买流量。Up主又能够借助生态不断创造新内容,形成完美的闭环。闭环中最重要的部分是数据驱动、智能算法、内容分发、流量分发以及增长闭环,这些都是依靠数据分析实现。
大家明白了数据的价值。再例如,在电商平台购买产品时,用户会根据浏览猜测喜欢某个商品、推荐配件等。这些看似不起眼的广告位,实际上每年产生订单的占比相当高,转化率比配置的广告还要高。
还有,在淘宝店铺网上购买产品时,可以花一个很低的价格购买运费险。同样的产品,不同用户的价格不同,定价存在差异。因此,这也是依靠数据才能够产出的产品。如果没有数据积累和分析能力,这个产品就无法产出。
例如,使用的地图,我们最近半年前后的红绿灯计算。红绿灯的计算并非与交管部门接通数据,而是根据每辆车和每个使用地图的手机上报的数据计算,包括拥堵情况也是如此,地图可以帮助我们计算需要多长时间。时间的计算也是基于用户自己的数据通过算法进行计算的。
例如,金融行业,最近几年面向小企业基于税务的贷款体量,从15年前后的0增长到现在接近10万亿的规模,促进了数百万个小微企业获得不需要抵押的信用贷款,价格也非常便宜。它依靠的是税务数据和银税互动,包括涉诉的司法裁判文书数据,以及将拍卖等一系列公开数据融合起来,产生了一个效用。它大大降低了我们获得资金的门槛和信息获取的成本,从而可以大幅度降低小企业获得贷款利息的成本。
通过这几个案例,可以明白数据的价值巨大。在过去没有信息化的时代,它们不具备产生的条件。随着数字化程度的加深,政务、企业和商业都在不断数字化,越来越多的真实世界数据被积累。在这种情况下,如何利用数据并运用科学的方法提高数据价值?
我们将其形象地比作榨油机,通过不同的方法和工艺将数据榨出油并产生价值,这就是数据科学。
在日常工作生活中,有很多关键词,例如统计、知识发现、人工智能和数据挖掘等,这些都是数据科学的不同侧面。横看成岭侧成峰,许多概念和名词其实是同一件事情。此前,这个专业被称为数据挖掘,后来又称为机器学习,再后来又称为AI。虽然一个东西名字不断更换,但是大家给我们的帽子本质上是相同的做法。
因此,如何让数据产生价值,依靠数据科学。数据科学是一门跨学科领域,它利用科学方法从结构化、非结构化的各种数据中理解现实现象,吸取知识。其本质是在数据空间中理解发现物理空间中的规律,进而改造物理空间,进一步反馈到数据空间,形成循环迭代、螺旋上升的过程。这正是我们的数据科学或者数据人需要做的事情,并且持续不断地完成这些工作。
既然在这样的理论框架下,我们的数据如何发挥价值?
我们在各行各业中进行了大量实践,包括团队和数据人。这个群体持续不断地在企业、商业和政务中发挥各种功能和作用,简而言之就是打造一个业务闭环。在智能商业的反馈闭环中,用户的每次行为都转化为数据,成为算法的养分。而算法又驱动产品不断改善,数据在流动,算法在成长,产品在迭代。
无论是早期的百度、腾讯、阿里还是现在的字节跳动,他们都在做这样的事情。用户的行为让用户在平台上产生行为,积累数据,数据成为算法的养分,不断驱动算法变得更加精准和准度更加高。
互联网企业中,传统企业和非互联网企业占据了大量数据,规模相当大。他们在信息化和线上自动化过程中积累了大量数据,逐渐实现智能化。在这个过程中,最关键的是构建业务和数据闭环。
因此,最重要的是通过数据模型生产出数据产品。基于模型产出数据产品,基于介质数据产品,在业务场景中创造价值。建模对于从业者和非从业者而言都存在神秘感,即什么模型能起作用,什么模型效果不好,怎样才能有效,从而产生价值。这背后有一套方法论。
我们的模型根据复杂程度通常分为三个部分,第一个是专家规则,这种规则也可以被视为某种模型。例如,金融行业在十几年前发行信用卡,给用户多少额度,这个过程是依靠专家规则来实现的。
第一个是统计模型,比专家规则更加精准,专家规则是逐条进行,而统计模型能够将多个因子通过一个模型进行转化。
第三个是机器学习模型,机器学习模型能够学习大量数据样本,因此其学习能力更强。
最近热门的LLM,即大语言模型,它是机器学习的一种深度神经网络。因此在解决现实问题时,我们会根据数据量和项目能调用资源的大小来选择方法。实际上,没有好坏,只有合适。
不同的模型在应用时都有相同之处,需要通过业务经验总结。这些模型通常需要经过业务解释论证和样本统计验证,不仅在某个时间段管用,还能在多个时间切片上都管用。我们使用这个模型时包括规则组、专家打分公式和打分卡等都是专家的东西。
根据具体业务要求,分为探索性建模和程式化建模,通常在经营管理中被用程式化建模,例如银行,我们经常使用尿酸IFS9和巴塞尔协议III等程式化建模。在业务一线,像精准营销,并在具体产品线上进行数据质量分析和机械故障预测等,这些都是探索性建模,没有程式可循,难度更大。
第一部主要的内容是数据的价值非常高,日常生活中越来越离不开数据带来的价值。数据价值的产生需要的核心能力是数据分析和建模。目前日常生活中使用的任何网络功能背后都有算法。无论是短视频、今日头条,还是在电商平台上推荐的产品,或者在运费险购买瞬间的定价产生,都是通过模型计算得出的结果。甚至你接到的骚扰电话也是通过模型计算得出。
02
业务数字化,到底有多难
接下来讨论业务数字化。对于一个千行百业的企业而言,他们都积累了大量数据。这些数据都能产生,类似于在互联网平台上产生的价值,但实现是比较难的,难度究竟有多大?
经常提到模型,只有模型具有有效性才能产生价值。模型之所以具有有效性,是因为模型是数据规律的凝练,是数据与物理世界的映射关系,这决定了模型的有效性。数据建模时使用的数据与物理世界的映射关系越密切,模型就越有效。
我们需要满足4个条件,即数据好、算法对、场景配以及有反馈。这4个条件,数据好即数据精准且尽量表征场景中的全部信息。算法对是算法能够很好地凝练数据规律,与数据量和特征复杂度相匹配。场景配是模型的使用与训练与物理场景的契合度很高。最后,有反馈是数据必须形成闭环,否则模型的价值一定无法持续。因为建模时数据一定在变化,例如一年前的数据样本,使用了半年,这与当时建模时的样本有偏差,由于社会发展,再使用一年或者半年偏差更大。因此,算法必须有闭环。如果模型无法有效利用,数据和算法就无法很好地反馈,数据的价值就无法充分体现。
这里罗列的4个条件或者场景,可以对比自己的工作场合,如果有数据分析或者了解业务,可以进行比较。数据、反馈或者算法不正确的问题都存在这种可能性。因此,要找到合适的业务数字化场景仍然具有一定难度。
03
业务数字化,重心是什么
算法需要对数据准确,场景需要匹配,并且需要有反馈。在最关键的条件具备之后,还需要有一个优秀的团队。这件事情确实具有难度。在过去5年的时间里,无论是装备制造还是轻工业制造,都看到了数据所产生的价值。
例如,航空发动机制造,利用这些数据可以较好地提升合格率。再例如,前几年一家很有名的企业,专注于个性化服装定制,它通过数据流的打通,实现了低成本的个性化定制西装,这些都是数据与业务结合起来产生价值。
数据人的革命理想就是在这样的范式之下。通过训练得到了一个模型,只要经过测试,这个模型就在这里。在业务场景中产生新数据后,能够进行预测。这就是模型运用的范式。所以,模型在手,天下我有。很多人认为数据价值的产生重点在于构建模型,需要掌握Python、建模以及统计学,这是必要条件,而非充要条件。
为了产生价值,仅靠抓住建模方法是远远不够的,更多需要对业务和场景的深入理解才能够实现。
我们曾经看到一些外行宣传,例如利用深度学习方法,从基础数据中提取10万维特征,建立针对企业授信的违约预测模型。数据专家一看,就认为这个数据不靠谱,因为样本量不足够,需要驱动深度学习的算法,这么多维的特征,样本量必须足够多。对公信贷,有些银行可能1年都无法放出1000个企业,所以样本肯定不够,这就闹出笑话。
例如,银行智能推荐,如何提高理财产品的营销效率。在10年前,就进行过这样的探索,发现效果不佳,原因是用户没有决策权。在所有人都在使用企业网银的情况下,出纳使用的频率最高,财务主管频率较低,老板很少使用企业网页,因此他们没有决策权等。因此在业务中遇到的问题在算法、数据、场景和反馈方面,很难构建一个现实世界,无法尽可能运用数据科学的方法产出价值。
总之,模型非常重要。在真正的业务过程中,数据人有多年的体会,如果没有理想的情况下,我们需要去做。我们的重心应该是下面这几件事。
首先,以照相为例,要掌握相机的技术非常困难,包括快门、光圈和ISO,拍一张照片技术确实非常困难。很多人虽然理解了这些技术,但是仍然拍不出非常好的照片。这是为什么?
除拍照这几个概念之外,还需要把控很多现场信息,例如构图、色彩、立意、意境等,这些都是技术之外的。如果建立不好模型,那么它也没有用处。因此对于拍照这件事情,重心是设备吗?你背了一堆设备就能拍出好照片吗?大概不是。可能更多的还是在构图、色彩、立意、意境和技术之外。
射击火炮武器操作难吗?也非常难。在打仗方面,操作武器射击是关键?更多的战场信息、理论知识和业务动作需要具备更广泛的视野。所以,武器操作只是很小的部分,需要在战略、战役层面清楚占比。
因此,在业务数字化方面,我们需要打破Gap。业务人员认为数据分析师可以胜任各种工作,只需要完成即可。然而,数据分析师的最大局限性在于,并非每个分析师或者团队都能够完全理解业务。同样在一个机构中的数据团队可能距离业务一线较远。因此业务数字化的重心不是建模。
04
业务数字化,实战怎么打
重心是什么?重心有以下几点,首先需要具备业务思维,能够看到全局并找到痛点。通常数据产品研发都是从业务调研开始摸底分析,分析的底是两个方面,一个是业务底,另一个是数据底。在这种情况下,结合业务调研的业务摸底找到一些可能的切入点进行专题分析。分析结束之后才是建模工作,而不是抓住重点。因此我们需要明确业务目标约束条件,包括过去尝试市场态势和投入资源的情况。只有在战略层面和战术层面,才能真正打好战斗层面的建模。
离开这些,建模就是无本之木、无根之木和无源之水。例如,在客户营销分析方面,闭环需要进行大量工作,每一步都需要进行细致的研究。建模仅是最后一步,甚至有些业务分析可能并不需要建模就能产出效果,这在过去的实践中屡见不鲜。
第二个要素是什么?需要“中西医结合”,既要使用统计方法,也要使用算法方法,不能仅依赖统计,直接建立高阶模型。这类比赛非常多,我们发现对业务有帮助的方法往往不一定是算法最酷炫的方法。
从这种视角,找到一个有价值的视角比算法更加难得。2019年11月,高善文经济学家进行了观察。他的观察是将转型经济与中国、日本、韩国、台湾地区进行了比较,将时间对齐到0点,0点并非具体年份,而是放在每个国家经济换挡的年份上。日本早一些,韩国晚一些,台湾晚一些,中国大陆更晚一些。因此,当将这个观点放到这里后,你就能够看到中国到达这里后的变化。
这种观察非常难得,我们并不评判他的观察是否正确。虽然这种观察并未制作任何高阶模型,但是这种视角具有很高的价值。
第三是构建闭环,以营销为例,在适当的场景和时机下选择客户,以合适的方式进行营销。当然,还包括线上和线下渠道。最关键的是必须形成闭环,任何一次动作都要形成闭环,这非常重要。
第四,在进行数据模型时必须有逻辑。许多从事数据分析工作的同事和同学在某些方面欠缺业务逻辑,这些业务逻辑指什么?不仅要理解业务场景,抓住第一性原理。因此我们经常提到数据人需要学习如何撰写文章,如何用金字塔框架精准描述业务,这样才能有助于做好分析。
第五点是要站得足够高,业务实践与理论研究紧密结合。任何业务场景都有其背后的知识。以做过的航空发动机故障预测为例,需要了解航空发动机的整个原理,它分为几个部分,传感器收集的信息以及背后有怎样的科学研究支撑,只有清楚这些信息,才能站在巨人的肩膀上,给出好的方案。
第六点是两脚沾泥。我们经常提到,不想成为将军的司机并非好厨师。对于数据这件事情,越来越多的能力需要同时兼备,要懂数据原理和业务,通晓具体的业务场景。无论是营销、机器生产流程优化、机器视觉模型、故障诊断还是计算广告等,都需要了解业务场景中的关键人物,关键业务流程产出和记载的数据,这些数据反映了怎样的业务现实,这非常关键。
你需要会建模、数据分析、编写Python等技能,并且建立各种模型,最终才能实施。需要通过信息系统工具试点使用这些模型,进而将其转化为最后的信息系统,这样就将数据产品转化为真正有效的信息系统产品。
总结:
随着各行各业信息化和数字化的深入,数据要素的价值日益提高。无论是常见的互联网平台,以数据治理和数据经营为主要业务的金融机构,还是千行百业的制造业、商业和服务业,都依靠数据创造了大量价值。
那么,数据创造价值背后的机理是什么呢?就是依靠科学的数据分析方法与建模方法。建模模型采用从难到易的规则统计到机器学习。最近几年大语言模型ChatGPT的产出,都为数据价值提供新的助力,无论是帮助我们编写代码还是理解业务,都对我们有所帮助,这是数据模型。
数据模型完成后是否能够产生业务价值?好的武器需要有好的战略设计和战术素养,最终才能打好战斗。
要产生价值,需要尽量了解业务,具备顶层思维和良好逻辑,敢于尝试,才能在业务场景中创造更好的价值。
展望未来,随着物联网、云计算和移动互联网技术的持续发展,物理空间中越来越多的经济生活细节被更加细致、全面、及时地映射量化到数据空间。
通过数据科学方法和设计有价值的数据产品,可以把握经济生活和业务场景的内在本质,在数据空间中探索新规律,构建新模型,在物理空间中拓展新场景,创造新价值,为客户提供服务,助力实体经济发展壮大。这是数据人孜孜的追求。
在数字经济时代,任何一个企业的经营者、业务负责人和骨干都应该做我们想要做的事情。在数字化或者数据要素价值产生方面,前路漫漫。让我们共同共勉,共同前进。
END
独家安全建设秘籍
最新技术理念大揭秘
网络/数据/AI安全资讯,一手掌握
还有不定期的资料包,让你惊喜连连!
微信号|HY-xiaoyu01